En términos generales, esta primera etapa de estudio mostrará cálculos, visualizaciones e interpretaciones con base en un conjunto de datos desde un enfoque de estadística descriptiva multivariante; además, de incluir una prueba estadística de normalidad multivariada sobre ellos.
El conjunto de datos de trabajo es descrito en la sección 2. Cabe anotar que los fundamentos teóricos provienen de notas de clase del curso Análisis Multivariante dictado por el profesor Juan Carlos Rubriche Cárdenas para la Especialización en Estadística Aplicada, modalidad virtual (cohorte 2022-4), de la Fundación Universitaria Los Libertadores; y de los libros: Análisis Multivariante Aplicado con R (Aldás & Uriel, 2017) de Joaquín Aldás y Ezequiel Uriel, Análisis Multivariante de Joseph Hair, Rolph Anderson, Ronald Tatham y William Black (Hair et al., 1999), Análisis Estadístico de Datos Multivariados de Luis Guillermo Díaz Monroy y Mario Alfonso Morales Rivera (Díaz Morales & Morales Rivera, 2012), Introducción a la Teoría Matemática de las Probabilidades y a la Estadística de Howard Tucker (Tucker, 1973) y Análisis Multivariado: Estadística Multivariada Descriptiva de William David Aristizábal Rodríguez (Aristizábal R., 2017).
Este trabajo continúa el hecho en el curso Análisis de Regresión dictado por el profesor Dagoberto Bermúdez para la Especialización en Estadística Aplicada, modalidad virtual (cohorte 2022-4), de la Fundación Universitaria Los Libertadores. En este la bibliografía consultada fue: probabilidad y estadística de Jay L. Devore (Devore, Jay L., 2008), Bioestadística de Wayne W. Daniel (Daniel, Wayne W., 2013), Métodos Matemáticos de Estadística de Harald Cramer (Cramer, Harald, 1953); motivo por el cual se incluyen en las referencias. El trabajo hecho en Análisis de Regresión que puede ser consultado temporalmente a través de: https://rpubs.com/glibrerosl/Applied-Statistics-FULL.
Por último, este trabajo fue procesado con R version 4.2.2 (2022-10-31 ucrt) mediado por RStudio 2022.12.0 Build 353 en una plataforma x86_64-w64-mingw32. Además, por su naturaleza de publicación en línea y para cumplir con el requisito temporal de entrega, será actualizado, como máximo, hasta las 11:59 p.m. del lunes 13 de febrero de 2023.
El conjunto de datos de trabajo se obtuvo casi totalmente de Kaggle: https://www.kaggle.com/akshaydattatraykhare. Es conveniente anotar que Kaggle es una compañía subsidiaria de Google LLC que mantiene una comunidad online de científicos de datos y profesionales del aprendizaje automático. Esta empresa permite a sus usuarios encontrar y publicar conjuntos de datos, explorar y crear modelos en un entorno de ciencia de datos basado en la web, trabajar con otros científicos de datos e ingenieros de aprendizaje automático y participar en concursos para resolver desafíos de ciencia de datos.
El conjunto de datos incluye métricas académicas obtenidas por estudiantes extranjeros para aspirar a acceder a universidades de EE.UU. Este conjunto de datos se actualizó por última vez en julio de 2022.
El conjunto de datos contiene 10 campos y 400 registros. Uno de los campos es simplemente un identificador numérico secuencial de los registros; otros tres son de naturaleza politómica; y el resto son numéricos estrictamente positivos. La lista siguiente los describe en el mismo orden, de izquierdda a derecha, como aparecen en el rango de datos que los contiene y se establece para cada campo, excepto el campo Serial, el tipo de variable y su escala de medición con base en la nomenclatura (tipo_de_variable::escala_de_medición[ordenamiento]):
Serial (identificador): registra un número secuenciado a partir de 1 para identificar de forma única cada registro consignado en el conjunto de datos.
Gender (cualitativa::nominal): registra el sexo del estudiante del cual se registraron los datos: 1 corresponde con un estudiante de sexo masculino, 0 con un estudiante de sexo femenino.
GRE Score (cuantitativa::razón): registra el puntaje total GRE (examen de acceso a la universidad) obtenido por el estudiante. GRE es un componente común del proceso de admisión a colegios o universidades en EE.UU. que mide el razonamiento verbal, cuantitativo, la escritura analítica y las habilidades de pensamiento crítico que se han adquirido a lo largo de un extenso período de tiempo y que no están relacionados con campo específicos de estudio. El campo solo registra dos de los tres componentes de la evaluación: razonamiento verbal y cuantitativo, en una escala desde 260 hasta 340 puntos. El resultado ausente del puntaje corresponde con el componente de escritura analítica: calificado entre 0 y 6 puntos.
TOEFL Score (cuantitativa::razón): registra el puntaje total TOEFL (prueba de inglés como idioma extranjero) obtenido por el estudiante. TOEFL es un componente común del proceso de admisión a colegios o universidades en EE.UU. por parte de estudiantes extranjeros que mide las competencias en comprensión escrita, comprensión oral, expresión oral y expresión escrita, en una escala desde 0 hasta 120 puntos.
SOP (cuantitativa::razón): registra el puntaje total SOP (ensayo de declaración de propósitos o de admisión) obtenido por el estudiante. SOP es un componente común del proceso de admisión a colegios o universidades en EE.UU. que consiste en un ensayo de solicitud de ingreso escrito por el estudiante en el cual debe hacer una descripción general de quién es, en quién quiere convertirse y hasta qué punto está preparado para seguir un determinado curso en la institución educativa a la cual aspira ingresar. Este ensayo se califica con un puntaje entre 0 y 5.
LOR (cuantitativa::razón): registra el puntaje total LOR (carta de recomendación) obtenido por el estudiante. LOR es un componente común del proceso de admisión a colegios o universidades en EE.UU. que consiste en una recomendación escrita, generalmente por un profesor, en la cual el redactor evalúa las cualidades, características y capacidades del estudiante recomendado en relación con su aptitud para seguir un curso en la institución educativa a la cual el estudiante aspira a ingresar. Esta carta se califica con un puntaje entre 0 y 5.
CGPA (cuantitativa::razón): registra el puntaje total CGPA (promedio de calificaciones acumulativo) obtenido por el estudiante. CGPA es un componente común del proceso de admisión a colegios o universidades en EE.UU. que mide el desempeño promedio del estudiante en su escolaridad previa a la solicitud de ingreso a la institución educativa siguiente de su preferencia. Este puntaje se mide entre 0 y 4; sin embargo, en el conjunto de datos fue convertido en una escala entre 0 y 10.
Research (cualitativa::nominal): registra la experiencia en investigación que posee el estudiante: 1 corresponde con que el estudiante argumenta experiencia investigativa, 0 corresponde con que no-argumenta experiencia investigativa.
University Rating (cualitativa::nominal(ordenada)): registra valoración de la universidad a la cual aspira a ingresar el estudiante. Esta valoración se hace en una escala entre 1 y 5 estrellas, cinco estrellas indica la mejor valoración.
Chance of Admit (cuantitativa::razón): registra la probabilidad de que el estudiante sea admitido en la universidad de su preferencia con base en los datos registrados a su nombre, salvo su sexo. Esta probrabilidad se mide entre 0 y 1.
Por último, es necesario aclarar que en el conjunto de datos los registros de las variables cualitativas fueron reescritos, según los casos, por números enteros positivos, incluido el cero. Así, los sexos en la variable Gender fueron reescritos como 0:female y 1:male; en Research el evidenciar o no-evidenciar investigaciones fue reescrito como 0:no-research y 1:research; y en University Rating la valoración de la universidad fue reescrita como 1:one_star, 2:two_stars, 3:three_stars, 4:four_stars y 5:five_stars.
str(Admission_Dataset_Initial)
## tibble [400 × 10] (S3: tbl_df/tbl/data.frame)
## $ Serial : num [1:400] 1 2 3 4 5 6 7 8 9 10 ...
## $ Gender : chr [1:400] "M" "F" "M" "M" ...
## $ GRE_Score : num [1:400] 337 324 316 322 314 330 321 308 302 323 ...
## $ TOEFL_Score : num [1:400] 118 107 104 110 103 115 109 101 102 108 ...
## $ SOP : num [1:400] 4.5 4 3 3.5 2 4.5 3 3 2 3.5 ...
## $ LOR : num [1:400] 4.5 4.5 3.5 2.5 3 3 4 4 1.5 3 ...
## $ CGPA : num [1:400] 9.65 8.87 8 8.67 8.21 9.34 8.2 7.9 8 8.6 ...
## $ Research : chr [1:400] "research" "research" "research" "research" ...
## $ University_Rating: chr [1:400] "four_stars" "four_stars" "three_stars" "three_stars" ...
## $ Chance_of_Admit : num [1:400] 0.92 0.76 0.72 0.8 0.65 0.9 0.75 0.68 0.5 0.45 ...
Admission_Dataset_Initial
## # A tibble: 400 × 10
## Serial Gender GRE_Score TOEFL_Score SOP LOR CGPA Resea…¹ Unive…² Chanc…³
## <dbl> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <chr> <chr> <dbl>
## 1 1 M 337 118 4.5 4.5 9.65 resear… four_s… 0.92
## 2 2 F 324 107 4 4.5 8.87 resear… four_s… 0.76
## 3 3 M 316 104 3 3.5 8 resear… three_… 0.72
## 4 4 M 322 110 3.5 2.5 8.67 resear… three_… 0.8
## 5 5 M 314 103 2 3 8.21 no-res… two_st… 0.65
## 6 6 M 330 115 4.5 3 9.34 resear… five_s… 0.9
## 7 7 M 321 109 3 4 8.2 resear… three_… 0.75
## 8 8 M 308 101 3 4 7.9 no-res… two_st… 0.68
## 9 9 F 302 102 2 1.5 8 no-res… one_st… 0.5
## 10 10 F 323 108 3.5 3 8.6 no-res… three_… 0.45
## # … with 390 more rows, and abbreviated variable names ¹Research,
## # ²University_Rating, ³Chance_of_Admit
str(Admission_Dataset)
## tibble [400 × 10] (S3: tbl_df/tbl/data.frame)
## $ Serial : num [1:400] 1 2 3 4 5 6 7 8 9 10 ...
## $ Gender : num [1:400] 1 0 1 1 1 1 1 1 0 0 ...
## $ GRE_Score : num [1:400] 337 324 316 322 314 330 321 308 302 323 ...
## $ TOEFL_Score : num [1:400] 118 107 104 110 103 115 109 101 102 108 ...
## $ SOP : num [1:400] 4.5 4 3 3.5 2 4.5 3 3 2 3.5 ...
## $ LOR : num [1:400] 4.5 4.5 3.5 2.5 3 3 4 4 1.5 3 ...
## $ CGPA : num [1:400] 9.65 8.87 8 8.67 8.21 9.34 8.2 7.9 8 8.6 ...
## $ Research : num [1:400] 1 1 1 1 0 1 1 0 0 0 ...
## $ University_Rating: num [1:400] 4 4 3 3 2 5 3 2 1 3 ...
## $ Chance_of_Admit : num [1:400] 0.92 0.76 0.72 0.8 0.65 0.9 0.75 0.68 0.5 0.45 ...
Admission_Dataset
## # A tibble: 400 × 10
## Serial Gender GRE_Score TOEFL_Score SOP LOR CGPA Resea…¹ Unive…² Chanc…³
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1 1 337 118 4.5 4.5 9.65 1 4 0.92
## 2 2 0 324 107 4 4.5 8.87 1 4 0.76
## 3 3 1 316 104 3 3.5 8 1 3 0.72
## 4 4 1 322 110 3.5 2.5 8.67 1 3 0.8
## 5 5 1 314 103 2 3 8.21 0 2 0.65
## 6 6 1 330 115 4.5 3 9.34 1 5 0.9
## 7 7 1 321 109 3 4 8.2 1 3 0.75
## 8 8 1 308 101 3 4 7.9 0 2 0.68
## 9 9 0 302 102 2 1.5 8 0 1 0.5
## 10 10 0 323 108 3.5 3 8.6 0 3 0.45
## # … with 390 more rows, and abbreviated variable names ¹Research,
## # ²University_Rating, ³Chance_of_Admit
Como se menciona en (Aristizábal R., 2017) la de media, varianza y covarianza conforman un conjunto de medidas fundamentales para describir describir el comportamiento posicional, dispersivo y correlacional de variables aleatorias. En este sentido, el conjunto de datos de trabajo que posee cinco variables aleatorias numéricas, y que está representado matricialmente, estima las medidas anteriores a partir de vectores y matrices en el estudio descriptivo multivariable.
El vector de medias indica el comportamiento posicional en el sentido de valor esperado o punto medio para cada variable en relación con todos sus registros. La matriz de varianzas-covarianzas estima las dispersiones, en su diagonal principal, de cada variable del conjunto de datos respecto de cada media obtenida del vector de medias. Además, por encima o por debajo de la diagonal principal, se estiman las covarianzas entre las combinaciones de los posibles pares de variables del conjunto de datos. Para más detalles se puede consultar a (Aristizábal R., 2017).
Lo anterior, para el conjunto de datos de trabajo, se desarrolla en la sección 3.2.
Con base en el conjunto de datos descrito en la sección 2 se calcularán e intepretarán, para las variables numéricas, el vector de medias, la matriz de varianzas-covarianzas y la matriz de correlaciones. Se recuerda que las variables numéricas (en escalada de medición de razón) son: GRE Score, TOEFL Score, SOP, LOR, CGPA y Chance of Admit.
La navegación a través de las pestañas muestra el cálculo de los siguientes objetos: Vector de Medias \(\bar x\), Matriz de Varianzas-Covarianzas \(S\) y Matriz de Correlaciones \(R\).
Con base en la pestaña Vector de Medias y Boxplots se puede describir que en general los datos registrados para cada una de las variables tienden a tener colas izquierdas en su distribuciones, así, las medias estimadas tienden a ser altas. Adicionalmente, en relación con la mediana, solo la variable SOP muestra un sesgo notorio en comparación con las demás. Además, todos los casos atípicos son de extremo inferior. Si se revisan los rangos de las variables estudiadas se puede constatar que las medias son altas compradas con los extremos superiores de cada rango.
Con base en la pestaña Matriz de Varianzas-Covarianzas se interpreta que, en general, y como se espera que pase, las relaciones entre las variables, estudiadas por pares, tienden a ser de proporcionalidad directa. Para el caso, se pueden observar la gráfica multivariada mostrada en la pestaña Diagrama Conjunto de Dispersión, Distribución y Correlaciones [SA] de la sección 4.2.
Con base en la pestaña Matriz de Correlaciones y al considerar la Matriz de Varianzas-Covarianzas es verificable que la intensidad de las corelaciones es más alta y siempre positiva entre las variables: TOEFL_Score, GRE_Score, CGPA y Chance_of_Admit, que es esperado en relación con el fenómeno estudiado, esto se puede revisar con más detalles en la sección 4.2.
apply(Admission_Dataset[,-c(1,2,8,9)], 2, mean)
## GRE_Score TOEFL_Score SOP LOR CGPA
## 316.807500 107.410000 3.400000 3.452500 8.598925
## Chance_of_Admit
## 0.724350
Admission_Dataset_Reducido = Admission_Dataset[,-c(1,2,8,9)]
par(mfrow = c(1, ncol(Admission_Dataset_Reducido)))
invisible(lapply(1:ncol(Admission_Dataset_Reducido), function(i) boxplot(Admission_Dataset_Reducido[, i])))
round(cov(Admission_Dataset[,-c(1,2,8,9)]),2)
## GRE_Score TOEFL_Score SOP LOR CGPA Chance_of_Admit
## GRE_Score 131.64 58.22 7.08 5.75 5.70 1.31
## TOEFL_Score 58.22 36.84 4.02 3.10 3.00 0.69
## SOP 7.08 4.02 1.01 0.66 0.43 0.10
## LOR 5.75 3.10 0.66 0.81 0.36 0.09
## CGPA 5.70 3.00 0.43 0.36 0.36 0.07
## Chance_of_Admit 1.31 0.69 0.10 0.09 0.07 0.02
round(cor(Admission_Dataset[,-c(1,2,8,9)]),2)
## GRE_Score TOEFL_Score SOP LOR CGPA Chance_of_Admit
## GRE_Score 1.00 0.84 0.61 0.56 0.83 0.80
## TOEFL_Score 0.84 1.00 0.66 0.57 0.83 0.79
## SOP 0.61 0.66 1.00 0.73 0.72 0.68
## LOR 0.56 0.57 0.73 1.00 0.67 0.67
## CGPA 0.83 0.83 0.72 0.67 1.00 0.87
## Chance_of_Admit 0.80 0.79 0.68 0.67 0.87 1.00
En la guía de clase de (Aristizábal R., 2017) se menciona que, en general, los gráficos multivariados cumplen dos objetivos esenciales: primero, ayudan a comparar el comportamiento de poblaciones de estudio con base en variables categóricas y suavizan la comprensión de la estructura de correlación entre varias variables. En este sentido, el conjunto de datos de trabajo tendrá apoyo descritivo gráfico a través de tres diagramas: uno conjunto que integra dispersión, distribución y correlaciones; otro basado en la renderización de polígonos, y por último, uno que recurre a las caras de Chernoff.
Con base en el conjunto de datos descrito en la sección 2 se calcularán e intepretarán, para las variables numéricas, las gráficas multivariadas de diagrama de correlaciones, matriz de diagrama de dispersión, diagrama de estrellas y caras de Chernoff. Se recuerda que las variables numéricas (en escalada de medición de razón) son: GRE Score, TOEFL Score, SOP, LOR, CGPA y Chance of Admit.
La navegación a través de las pestañas muestra las gráficas multivariadas de: Diagrama Conjunto de Dispersión, Distribución y Correlaciones (sin agrupación SA y con agrupación CA (con base en las tres variables categóricas: Gender:GE, Research:RE, University_Rating:UR)), Diagrama de Estrellas y Caras de Chernoff.
Con base en la pestaña Diagrama Conjunto de Dispersión, Distribución y Correlaciones [SA] se puede describir que las correlaciones más altas, mayores que \(0.8\), se dan entre variables esperadas como: TOEFL_Score, GRE_Score, CGPA y Chance_of_Admit. Estas variables, según las definiciones dadas en la sección 2 de descripción de datos, son nucleares en el fenómeno estudiado, porque están involucradas con el historial de rendimiento académico del estudiante, su desempeño en la prueba de ingreso a la universidad, su nivel de dominio certificado del idioma inglés y sus índice de probabilidad de ingreso a la universidad a la cual aspira. Sin embargo, ninguna de ellas es descollantemente explicativa. Para más detalles puede consultarse el trabajo de análisis de regrresión formulado sobre el mismo conjunto de datos a través de: https://rpubs.com/glibrerosl/Applied-Statistics-FULL.
Complementariamente, con base en las pestañas Diagrama Conjunto de Dispersión, Distribución y Correlaciones en sus versiones basadas en grupos a partir de las variables categóricas: Gender, Research y University_Rating, se puede apreciar que comparativamente la diferenciación basada en Gender no muestra relevancia para elevar la probabilidad de acceso a la universidad de su elección, contrario a lo que sucede con la variable agrupadora Research que muestra diferenciadamente lo contrario. Es decir, que un estudiante pertenezca al grupo de aquellos que evidencia trabajo en investigación al momento de presentar su solicitud de acceso, resulta para él en una característica significativamente a favor de sus pretensiones. Por otro lado, la variable clasificadora University_Rating, que aporta cinco grupos, muestra que las universidades de dos y cuatro estrellas en todos los casos visualizados en el diagrama son significativas a nivel de correlación, pero, como es esperado, las de mejor rating, atraen a los mejores talentos.
Con base en la pestaña Diagrama de Estrellas se interpreta que hay una variedad notoria de estudiantes en términos de desempeños asociados con las variables numéricas estudiadas, incluso con la que mide el examen de proficiencia en lengua extranjera, para el caso inglés: TOEFL_Score. Pero, también es notoria la presencia de grupos de estudiantes con desempeños aproximadamente homogéneos en todas las variables estudiadas, aunque sus escalas de desempeño varian.
Complementariamente a los diagramas de estrellas, la pestaña Caras de Chernoff muestra que la variedad de estudiantes es sensible de establecer. Con relativa claridad, las Caras de Chernoff número 1, 10, 21 y 8, 19, 22, pueden conformar un par de grupos de estudiantes que muestran desempeños significativos en las variables medidas, aunque con cambios de escala; es decir, los del segundo grupo se desempeñan mejor que los del primero considerando todas las variables estudiadas. Esto compagina con lo mostrado en el Diagrama de Estrellas.
Por último, es relevante mencionar que las evidencias descriptivas expuestas en este apartado estén en contra de considerar que el conjunto de datos limitado a las variables numéricas tenga una distribución normal multivariada. Esto se estudia en la sección 5.
ggpairs(Admission_Dataset[,-c(1,2,8,9)])
ggpairs(Admission_Dataset_Initial, columns = c(3:7,10), aes(color = Gender, alpha = 0.5), upper = list(continuous = wrap("cor", size = 2.5)))
ggpairs(Admission_Dataset_Initial, columns = c(3:7,10), aes(color = Research, alpha = 0.5), upper = list(continuous = wrap("cor", size = 2.5)))
ggpairs(Admission_Dataset_Initial, columns = c(3:7,10), aes(color = University_Rating, alpha = 0.5), upper = list(continuous = wrap("cor", size = 2.5)))
set.seed(780728)
Admission_Dataset_Muestreado = Admission_Dataset[sample(1:nrow(Admission_Dataset),23),-c(1,2,8,9)]
stars(Admission_Dataset_Muestreado, len = 1, cex = 0.4, key.loc = c(10, 2), draw.segments = TRUE)
set.seed(780728)
Admission_Dataset_Muestreado = Admission_Dataset[sample(1:nrow(Admission_Dataset),23),-c(1,2,8,9)]
faces(Admission_Dataset_Muestreado)
## effect of variables:
## modified item Var
## "height of face " "GRE_Score"
## "width of face " "TOEFL_Score"
## "structure of face" "SOP"
## "height of mouth " "LOR"
## "width of mouth " "CGPA"
## "smiling " "Chance_of_Admit"
## "height of eyes " "GRE_Score"
## "width of eyes " "TOEFL_Score"
## "height of hair " "SOP"
## "width of hair " "LOR"
## "style of hair " "CGPA"
## "height of nose " "Chance_of_Admit"
## "width of nose " "GRE_Score"
## "width of ear " "TOEFL_Score"
## "height of ear " "SOP"
Como menciona (Porras C., 2016) para indagar o establecer el tipo de distribución multivariada de un conjunto de datos se puede recurrir a procedimientos descriptivos, como los gráficos, o a procedimientos inferenciales, como las pruebas estadísticas. En este sentido, se alcanza generalización de resultados al usar las estos últimos, si bien los primeros apoyan a las interpretaciones.
En este apartado se contempla el uso de procedimientos inferenciales para determinar si el conjunto de datos de trabajo, en relación con sus variables numéricas, se distribuye normal multivariado (DNM). Las pruebas de normalidad multivariada (PNM) a las que será sometido son: Mardia, Henze-Zirkler, Doornik-Hansen y Royston. Para estas pruebas de normalidad los test obedecen a un nivel de significancia \(\alpha = 0.05\) y a las hipótesis:\[H_0: \text {Las variables tienen una DNM}\] \[H_1: \text {Las variables NO tienen una DNM}\]
La prueba de Mardia se basa en extensiones de asimetría y curtosis, el cuadrado de la distancia de Mahalanobis, la cantidad de variables \(p\) por tratar y la cantidad de registros \(n\). Además, considera que la prueba estadística para la asimetría tiene una distribución \(\chi^2\) y la prueba estadística para la curtosis se distirbuye aproximadamente normal. Los detalles sobre los parámetros de las distribuciones pueden consultarse en el trabajo de (Porras C., 2016).
La prueba de Henze-Zirkler se basa en la distancia funcional, dado que si el conjunto de datos presenta una distribución normal multivariada, el estadístico de la prueba se distribuye aproximadamente como una lognormal, cuyos parámetros de media \(\mu\) y varianza \(\sigma^2\) pueden ser consultados en (Porras C., 2016).
La prueba de Doornik-Hansen está basada en la asimetría y la curtosis de un conjunto de datos multivariados, que se transforma para garantizar la independencia. Es considerada más potente que la prueba de Shapiro-Wilk para casos multivariados. Su estadístico de prueba está definido como la suma de las transformaciones al cuadrado de la asimetría y la curtosis, y sigue, aproximadamente, una distribución \(\chi^2\). Los detalles de la prueba pueden ser consultados en (Doornik & Hansen, 2008).
La prueba de Royston recurre a las pruebas Shapiro-Wilk o Shapiro-Francia para probar la normalidad multivariada. Así, si la curtosis es mayor que 3, la prueba de Royston usa Shapiro-Francia para distribuciones leptocurticas. Mientras que para distribuciones platicurticas usa Shapiro-Wilk. En ella los parámetros son obtenidos por aproximaciones polinomiales, esto puede ser consultado en (Porras C., 2016).
Con base en el conjunto de datos descrito en la sección 2 se hará una prueba estadística de normalidad multivariada, con un nivel de significancia \(\alpha=0.05\), para establecer si sus datos métricos provienen de una población normal multivariada. Se recuerda que las variables numéricas del conjunto de datos (en escalada de medición de razón) son: GRE Score, TOEFL Score, SOP, LOR, CGPA y Chance of Admit.
La navegación a través de las pestañas muestra que el conjunto de datos, en relación con sus variables numéricas, no se distribuye normal multivariado. En particular:
La PNM de Mardia establece que si ambas pruebas (para asimetría y curtosis) indican una normalidad multivariante, los datos siguen una DNM con un nivel de significancia \(\alpha=0.05\); sin embargo, el caso tratado es contrario a esto. Obsérvese a través de la pestaña PNM Mardia que los \(p-value\) para la asimetría (Skewness) y curtoris (Kurtosis) son mayores que el nivel de significancia. Por lo tanto, las evidencias no apoyan una hipótesis de normalidad multivariada para el conjunto de datos restringido a sus variables numéricas.
La PNM de PNM Henze-Zirkler establece que el estadístico de prueba no se distribuye aproximadamente como lognormal dado que su \(p-value\) es menor que el nivel de significancia \(\alpha=0.05\), obsérvese esto a través de la pestaña PNM Henze-Zirkler. Así, por contrarrecíproco de la implicación formulada en la descripción de la prueba en la sección 5, el conjunto de datos no está apoyado por las evidencias para seguir una distribución normal multivariada.
La PNM de Doornik-Hansen establece que su estadístico de prueba no sigue una distribución aproximadamente \(\chi^2\) dado que su \(p-value\) es menor que el nivel de significancia \(\alpha=0.05\), obsérvese esto a través de la pestaña PNM Doornik-Hansen. Por lo tanto, las evidencias están lejos de apoyar que el conjunto de datos sigue una DNM.
La PNM de Royston establece que el conjunto de datos reducido a sus variables numéricas no sigue una DNM, dado que su \(p-value\) es menor que el nivel de significancia \(\alpha=0.05\). Obsérvese esto a través de la pestaña PNM Royston.
En general, pudo constatarse que para un nivel de significancia \(\alpha=0.05\) el conjunto de datos reducido a sus variabls numéricas no sigue una distribución normal multivariada.
mvn(Admission_Dataset[,-c(1,2,8,9)], mvnTest="mardia")
## $multivariateNormality
## Test Statistic p value Result
## 1 Mardia Skewness 271.779505720825 4.34632487808584e-30 NO
## 2 Mardia Kurtosis 4.02256608402635 5.75674947702609e-05 NO
## 3 MVN <NA> <NA> NO
##
## $univariateNormality
## Test Variable Statistic p value Normality
## 1 Anderson-Darling GRE_Score 1.1168 0.0063 NO
## 2 Anderson-Darling TOEFL_Score 1.1416 0.0055 NO
## 3 Anderson-Darling SOP 5.4710 <0.001 NO
## 4 Anderson-Darling LOR 5.9416 <0.001 NO
## 5 Anderson-Darling CGPA 0.5320 0.1729 YES
## 6 Anderson-Darling Chance_of_Admit 1.5949 4e-04 NO
##
## $Descriptives
## n Mean Std.Dev Median Min Max 25th 75th
## GRE_Score 400 316.807500 11.4736461 317.00 290.00 340.00 308.00 325.0000
## TOEFL_Score 400 107.410000 6.0695138 107.00 92.00 120.00 103.00 112.0000
## SOP 400 3.400000 1.0068686 3.50 1.00 5.00 2.50 4.0000
## LOR 400 3.452500 0.8984775 3.50 1.00 5.00 3.00 4.0000
## CGPA 400 8.598925 0.5963171 8.61 6.80 9.92 8.17 9.0625
## Chance_of_Admit 400 0.724350 0.1426093 0.73 0.34 0.97 0.64 0.8300
## Skew Kurtosis
## GRE_Score -0.06242254 -0.7181786
## TOEFL_Score 0.05678751 -0.5985838
## SOP -0.27369641 -0.6937320
## LOR -0.10619038 -0.6808341
## CGPA -0.06549644 -0.4803728
## Chance_of_Admit -0.35080166 -0.4122290
mvn(Admission_Dataset[,-c(1,2,8,9)], mvnTest="hz")
## $multivariateNormality
## Test HZ p value MVN
## 1 Henze-Zirkler 1.675143 0 NO
##
## $univariateNormality
## Test Variable Statistic p value Normality
## 1 Anderson-Darling GRE_Score 1.1168 0.0063 NO
## 2 Anderson-Darling TOEFL_Score 1.1416 0.0055 NO
## 3 Anderson-Darling SOP 5.4710 <0.001 NO
## 4 Anderson-Darling LOR 5.9416 <0.001 NO
## 5 Anderson-Darling CGPA 0.5320 0.1729 YES
## 6 Anderson-Darling Chance_of_Admit 1.5949 4e-04 NO
##
## $Descriptives
## n Mean Std.Dev Median Min Max 25th 75th
## GRE_Score 400 316.807500 11.4736461 317.00 290.00 340.00 308.00 325.0000
## TOEFL_Score 400 107.410000 6.0695138 107.00 92.00 120.00 103.00 112.0000
## SOP 400 3.400000 1.0068686 3.50 1.00 5.00 2.50 4.0000
## LOR 400 3.452500 0.8984775 3.50 1.00 5.00 3.00 4.0000
## CGPA 400 8.598925 0.5963171 8.61 6.80 9.92 8.17 9.0625
## Chance_of_Admit 400 0.724350 0.1426093 0.73 0.34 0.97 0.64 0.8300
## Skew Kurtosis
## GRE_Score -0.06242254 -0.7181786
## TOEFL_Score 0.05678751 -0.5985838
## SOP -0.27369641 -0.6937320
## LOR -0.10619038 -0.6808341
## CGPA -0.06549644 -0.4803728
## Chance_of_Admit -0.35080166 -0.4122290
mvn(Admission_Dataset[,-c(1,2,8,9)], mvnTest="dh")
## $multivariateNormality
## Test E df p value MVN
## 1 Doornik-Hansen 1844.957 12 0 NO
##
## $univariateNormality
## Test Variable Statistic p value Normality
## 1 Anderson-Darling GRE_Score 1.1168 0.0063 NO
## 2 Anderson-Darling TOEFL_Score 1.1416 0.0055 NO
## 3 Anderson-Darling SOP 5.4710 <0.001 NO
## 4 Anderson-Darling LOR 5.9416 <0.001 NO
## 5 Anderson-Darling CGPA 0.5320 0.1729 YES
## 6 Anderson-Darling Chance_of_Admit 1.5949 4e-04 NO
##
## $Descriptives
## n Mean Std.Dev Median Min Max 25th 75th
## GRE_Score 400 316.807500 11.4736461 317.00 290.00 340.00 308.00 325.0000
## TOEFL_Score 400 107.410000 6.0695138 107.00 92.00 120.00 103.00 112.0000
## SOP 400 3.400000 1.0068686 3.50 1.00 5.00 2.50 4.0000
## LOR 400 3.452500 0.8984775 3.50 1.00 5.00 3.00 4.0000
## CGPA 400 8.598925 0.5963171 8.61 6.80 9.92 8.17 9.0625
## Chance_of_Admit 400 0.724350 0.1426093 0.73 0.34 0.97 0.64 0.8300
## Skew Kurtosis
## GRE_Score -0.06242254 -0.7181786
## TOEFL_Score 0.05678751 -0.5985838
## SOP -0.27369641 -0.6937320
## LOR -0.10619038 -0.6808341
## CGPA -0.06549644 -0.4803728
## Chance_of_Admit -0.35080166 -0.4122290
mvn(Admission_Dataset[,-c(1,2,8,9)], mvnTest="royston")
## $multivariateNormality
## Test H p value MVN
## 1 Royston 83.73469 4.306446e-17 NO
##
## $univariateNormality
## Test Variable Statistic p value Normality
## 1 Anderson-Darling GRE_Score 1.1168 0.0063 NO
## 2 Anderson-Darling TOEFL_Score 1.1416 0.0055 NO
## 3 Anderson-Darling SOP 5.4710 <0.001 NO
## 4 Anderson-Darling LOR 5.9416 <0.001 NO
## 5 Anderson-Darling CGPA 0.5320 0.1729 YES
## 6 Anderson-Darling Chance_of_Admit 1.5949 4e-04 NO
##
## $Descriptives
## n Mean Std.Dev Median Min Max 25th 75th
## GRE_Score 400 316.807500 11.4736461 317.00 290.00 340.00 308.00 325.0000
## TOEFL_Score 400 107.410000 6.0695138 107.00 92.00 120.00 103.00 112.0000
## SOP 400 3.400000 1.0068686 3.50 1.00 5.00 2.50 4.0000
## LOR 400 3.452500 0.8984775 3.50 1.00 5.00 3.00 4.0000
## CGPA 400 8.598925 0.5963171 8.61 6.80 9.92 8.17 9.0625
## Chance_of_Admit 400 0.724350 0.1426093 0.73 0.34 0.97 0.64 0.8300
## Skew Kurtosis
## GRE_Score -0.06242254 -0.7181786
## TOEFL_Score 0.05678751 -0.5985838
## SOP -0.27369641 -0.6937320
## LOR -0.10619038 -0.6808341
## CGPA -0.06549644 -0.4803728
## Chance_of_Admit -0.35080166 -0.4122290
En términos generales, esta segunda etapa de estudio mostrará cálculos, visualizaciones e interpretaciones con base en el conjunto de datos tratado en la Etapa 1, pero ahora desde un enfoque de análisis de componentes principales sobre las variables cuantitativas, que incluirá: selección, calidad de representación, contribuciones e interpretación.
Recuérdese que el conjunto de datos de trabajo es descrito en la sección 2 y los referentes teóricos en la sección 1.
Por último, este trabajo fue procesado con R version 4.2.2 (2022-10-31 ucrt) mediado por RStudio 2022.12.0 Build 353 en una plataforma x86_64-w64-mingw32. Además, por su naturaleza de publicación en línea y para cumplir con el requisito temporal de entrega, será actualizado, como máximo, hasta las 11:59 p.m. del domingo 26 de febrero de 2023.
Como es mencionado en el trabajo de (Díaz Morales & Morales Rivera, 2012) el Análisis de Componentes Principales (en adelante ACP) reestructura un conjunto de datos multivariado a través de la reducción de la cantidad de sus variables, en cuyo transfondo es innecesario asumir ninguna distribución de probabilidad de ellas. Esta reducción es lograda a través de combinaciones lineales de las variables originales, que deberán contener la mayor variabilidad posible presente en el conjunto de datos. En este sentido, el ACP logra crear nuevas variables, conocidas como componentes principales, que poseen características estadísticas de independencia (con base en el supuesto de normalidad) y no correlación.
El ACP se logra a lo largo de las siguientes fases: generación de nuevas variables, reducción dimensional del espacio de los datos, eliminación de varaibles de poco aporte e interpretación de los componentes resultantes en el contexto del problema del cual se obtuvieron los datos. Estas fases se desarrollan entre las secciones 7, 8, 9 y 10.
Con base en las variables cuantitativas del conjunto de datos descrito en la sección 2 se demanda primero establecer el porcentaje de varianza explicado por cada dimensión una vez procesado el ACP; y posteriormente, con base en el autovalor medio o usando un diagrama de sedimentación, decidir cuántos componentes retener.
La navegación a través de las pestañas muestra que el conjunto de datos, en relación con sus variables numéricas, puede ser representado por un conjuto de variables más pequeño que retiene el \(77.05\) \(\%\) de la variabilidad del conjunto. En particular:
La Matriz ACP muestra seis dimensiones donde solo la primera retiene el \(77.05\) \(\%\), la siguiente el \(10.33\) \(\%\) y las demás solo porcentajes con parte entera de una cifra. En este sentido, la representatividad de la combinación lineal que define a la dimensión 1 es significativamente alta en comparación con las demás. Como esta matriz es muda en relación con las variables originales se sigue indagando la identificación de las variables que más contribuyan a la dimensión de valor propio más alto.
La Matriz de Correlaciones permite continuar con las descripciones de las combinaciones lineales que conforman a la dimensión de mayor interés: la dimensión 1. Así, esta matriz, como se mostró en la sección 3.2., ayuda a verificar que la intensidad de las corelaciones es más alta y siempre positiva entre las variables: TOEFL_Score, GRE_Score, CGPA y Chance_of_Admit, asunto esperado en relación con el fenómeno estudiado, por lo tanto, se podría esperar que estas variables participaran en la combinación lineal que define a la dimensión 1.
La pestaña de Valores y Vectores Propios muestra estos objetos calculados a partir de la matriz de correlaciones del conjunto de datos. En este sentido, se garantiza que la suma de los valores propios sea igual a la dimensión de dicha matriz y a la variabilidad total del conjunto, por lo cual las proporciones de retención de variabilidad son de cálculo inmediato. Además, la matriz de vectores propios define para cada componente, en relación con cada variable del conjunto de datos, los coeficientes de la combinación lineal que la conforman, por ejemplo, con un ajuste a dos cifras decimales, la componente 1 estaría representada por la combinación lineal (donde \(G\) es GRE_Score, \(T\) es TOEFL_Score, \(S\) es SOP, \(L\) es LOR, \(CG\) es CGPA y \(CA\) es Chance_of_Admit y además, son variables estandarizadas):\[Componente_1 = 0.41*G+0.42*T+0.39*S+0.37*L+0.44*CG+0.43*CA\]Hasta este punto, se puede observar que se dispone de un número de dimensiones igual al número de variables tratadas, con la salvedad que las variables nuevas son incorreladas entre sí, ver la pestaña Correlaciones Comparadas.
Por último, el Gráfico de Cattell y el Gráfico de Cattell-Kaiser, de codo y sedimentación, inducen a la elección de una componente en la reducción de dimensión que retiene la cantidad de variabilidad suficiente para tratar el problema. Sin embargo, debe resaltarse que se propone elegir con base en criterios más usados, a cambio de criterios de aceptación universal. El Gráfico de Cattell muestra que los cambios en la pendiente indican que la capacidad explicativa de la dimensión 1 es alta comparada con el resto. Así, el de Cattell-Kaiser al conjugar el instrumento gráfico anterior con el criterio de Kaiser en la misma gráfica apoya que la cantidad de dimensiones suficientes por retener es una, aclarando que esta elección retenga un porcentaje de variabilidad adecuado para estudiar el problema.
get_eigenvalue(PCA(Admission_Dataset[,-c(1,2,8,9)], ncp = 6, scale.unit = TRUE, graph = F))
## eigenvalue variance.percent cumulative.variance.percent
## Dim.1 4.6229170 77.048617 77.04862
## Dim.2 0.6197827 10.329711 87.37833
## Dim.3 0.2820316 4.700527 92.07885
## Dim.4 0.1992199 3.320332 95.39919
## Dim.5 0.1581864 2.636441 98.03563
## Dim.6 0.1178624 1.964373 100.00000
round(cor(Admission_Dataset[,-c(1,2,8,9)]),2)
## GRE_Score TOEFL_Score SOP LOR CGPA Chance_of_Admit
## GRE_Score 1.00 0.84 0.61 0.56 0.83 0.80
## TOEFL_Score 0.84 1.00 0.66 0.57 0.83 0.79
## SOP 0.61 0.66 1.00 0.73 0.72 0.68
## LOR 0.56 0.57 0.73 1.00 0.67 0.67
## CGPA 0.83 0.83 0.72 0.67 1.00 0.87
## Chance_of_Admit 0.80 0.79 0.68 0.67 0.87 1.00
princomp(Admission_Dataset[,-c(1,2,8,9)], cor = TRUE)$sdev^2
## Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6
## 4.6229170 0.6197827 0.2820316 0.1992199 0.1581864 0.1178624
princomp(Admission_Dataset[,-c(1,2,8,9)], cor = TRUE)$loadings[ ,1:6]
## Comp.1 Comp.2 Comp.3 Comp.4 Comp.5
## GRE_Score 0.4127781 0.4077294 0.02539719 0.3509029 0.72123826
## TOEFL_Score 0.4160056 0.3397387 -0.24669025 0.4574809 -0.65951168
## SOP 0.3855091 -0.4887667 -0.73602577 -0.1872366 0.15066692
## LOR 0.3662513 -0.6631878 0.52149384 0.3899370 -0.03811828
## CGPA 0.4372217 0.1447341 0.08859141 -0.3349520 -0.01437723
## Chance_of_Admit 0.4273564 0.1366578 0.34199519 -0.6068585 -0.14317642
## Comp.6
## GRE_Score 0.13931437
## TOEFL_Score 0.08010298
## SOP 0.11400812
## LOR -0.02412840
## CGPA -0.81709316
## Chance_of_Admit 0.54125202
par(mfrow=c(1,2))
corrplot::corrplot(cor(Admission_Dataset[,-c(1,2,8,9)]), method = "color", type = "upper", number.cex = 0.4)
corrplot::corrplot(cor(princomp(Admission_Dataset[,-c(1,2,8,9)], cor = TRUE)$scores), method = "color", type = "upper", number.cex = 0.4)
fviz_eig(PCA(Admission_Dataset[,-c(1,2,8,9)], scale.unit = T, graph = F), addlabels = T, ylim=c(0,90), main = "")
Al retomar el trabajo de (Díaz Morales & Morales Rivera, 2012) se verifica que, una vez reducida la dimensionalidad del conjunto de datos y entendido que sus variables (estandarizadas) están representadas gráficamente por proyecciones de la hiperesfera de correlaciones, es necesario iniciar la interpretación de componentes a partir de dichas correlaciones, para luego la calidad de sus representaciones dada la reducción dimensional del conjunto de datos en términos de sus variables.
Con base en el conjunto de datos descrito en la sección 2 se demanda determinar la calidad de representación de las variables cuantitativas respecto a la cantidad de dimensiones calculadas que retienen la mayor cantidad de variabilidad, ver la sección 7.
La navegación a través de las pestañas muestra que la reducción de la dimensionalidad del conjunto de datos conduce analizar las calidades de representación en términos de la escala de contribuciones relativas basada en un cociente de proyecciones con propiedades aditivas y de respuesta en escala continua entre \(0\) y \(1\). Así, en particular:
El Círculo de Correlaciones expresa que se puede concebir una compenente tipo tamaño en el sentido de que la dimensión 1 muestra en él una correlación positiva con las seis variables de interés, además cercanas a la frontera del círculo unitario y significativamente próximas al eje que la representa. Por otro lado, la dimensión 2 contrapone a las variables LOR y SOP con las demás. Otro aspecto por resaltar es la correlación mostrada entre pares de variables, que en términos del fenómeno estudiado conservan su naturaleza correlacional esperada hasta este punto del análisis. Un ejemplo resaltable es el par SOP y LOR que, en cierto sentido, están influidas por la subjetividad, véase la sección 2.
La Matriz de Representación, por otro lado, muestra valores significativamente cercanos a 1 del cociente de proyecciones coseno cuadrado en relación con la dimensión 1. En este sentido, los puntos proyectados están altamente asociados con este componente. Así, la estaña que muestra la Calidad de Representación indica en su escala un piso alto de \(0.84\) de esta manera las calidades de representación, en relación con la componente 1, están encabezadas por CGPA y cierran con SOP. Cabe aclarar que la dimensión 2 sostiene una mejor representación de LOR que de SOP, por lo tanto, la calidad de representación de la primera en relación con la dimensión 1 se ve afectada.
Por último, las Coordenadas Individuales ayudan, aunque de manera menos digestiva, a identificar a nivel de observaciones a los perfiles de los registros, en este caso estudiantes, en relación con las, por lo menos, dimensiones más importantes de retención de variabilidad: las componentes 1 y 2. Por ejemplo, al observar los registros 1, 9, 23, se manifiestan las semejanzas entre 1 y 23 en oposición de ambos con 9, incluso al considerar a la variable peor representada SOP.
fviz_pca_var(PCA(Admission_Dataset[,-c(1,2,8,9)], scale.unit = T, graph = F),col.var="#3B83BD", repel = T, col.circle = "#CDCDCD", ggtheme = theme_bw())
(get_pca_var(PCA(Admission_Dataset[,-c(1,2,8,9)], ncp = 6, scale.unit = TRUE, graph = F)))$cos2
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## GRE_Score 0.7876792 0.10303471 0.0001819152 0.024530510 8.228615e-02
## TOEFL_Score 0.8000450 0.07153678 0.0171633381 0.041694489 6.880409e-02
## SOP 0.6870452 0.14806169 0.1527860873 0.006984159 3.590915e-03
## LOR 0.6201182 0.27259164 0.0767001373 0.030291557 2.298454e-04
## CGPA 0.8837298 0.01298318 0.0022135076 0.022351052 3.269787e-05
## Chance_of_Admit 0.8442996 0.01157466 0.0329866161 0.073368148 3.242741e-03
## Dim.6
## GRE_Score 2.287532e-03
## TOEFL_Score 7.562625e-04
## SOP 1.531958e-03
## LOR 6.861706e-05
## CGPA 7.868979e-02
## Chance_of_Admit 3.452823e-02
fviz_pca_var(PCA(Admission_Dataset[,-c(1,2,8,9)], ncp = 6, scale.unit = TRUE, graph = F), col.var="cos2", gradient.cols=c("#00AFBB","#E7B800","#FC4E07"), repel = TRUE)
head((PCA(Admission_Dataset[,-c(1,2,8,9)], ncp = 6, scale.unit = TRUE, graph = F))$ind$coord, n = 23L)
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6
## 1 3.66199019 -0.44632765 -0.04355921 0.24316486 0.017016882 -0.21656303
## 2 1.19446218 0.73276087 -0.32814709 0.22842243 0.500315331 -0.11454589
## 3 -0.84979414 0.21025529 -0.35781782 0.16841716 0.277052946 0.70366065
## 4 0.29352000 -1.07510412 0.52840810 -0.44035081 0.022712146 0.32426628
## 5 -1.63376006 -0.50197420 -0.69858584 0.18077296 0.196680136 0.01208760
## 6 2.30415785 -1.04317671 0.81572439 -0.58984239 -0.005863787 0.04832797
## 7 0.11435288 0.04426511 -0.55778114 0.67583330 -0.008454658 0.65668699
## 8 -1.33319919 1.09523940 -0.64182557 0.14097961 0.121311282 0.53850632
## 9 -3.35109245 -0.93258034 0.55044116 -0.15675362 -0.230221499 -0.38858777
## 10 -0.70518251 -0.27624655 1.00503641 1.18722583 0.635525284 -0.93744778
## 11 -0.29903917 0.48517068 0.19973837 1.34630477 0.870978323 -0.42605295
## 12 1.91250151 0.29349042 -0.38344367 0.20818908 0.170392628 0.10043733
## 13 1.91053416 0.23513132 -0.21577217 0.51368146 0.182435980 -0.23939216
## 14 -0.95161415 0.46272070 1.12821047 0.29277119 -0.561789232 0.40712161
## 15 -1.63366474 -0.42045583 1.12531747 -0.37340051 0.206735944 0.04749185
## 16 -1.38952108 -0.17085741 1.02199451 0.25321293 0.333470659 -0.31946818
## 17 -0.09475078 0.01051262 0.82448700 -0.11605999 0.228086329 -0.30609341
## 18 -0.63522387 0.17510274 0.90749587 0.30600586 0.489710926 0.62737017
## 19 0.13054730 -0.18871990 1.00151472 0.21254670 -0.007618938 -0.50549162
## 20 -1.40069985 0.63282752 0.41187500 -0.54609747 -0.138958575 -0.47666697
## 21 -1.71366787 -0.82306966 0.85181743 0.01762092 -0.154540513 0.56819308
## 22 -0.21792196 -1.85700802 0.88942803 0.40713293 -0.170286359 0.36076889
## 23 3.54618997 0.61579548 -0.05532575 -0.06004547 -0.294653496 -0.02737099
Según el trabajo de (Díaz Morales & Morales Rivera, 2012) la interpretación de resultados está vinculada con el cálculo de coordenadas, contribuciones, cosenos cuadrados, etc, por lo tanto, la conceptualización de las variables debe ser clara para establecerla con la mayor claridad posible, es decir, los datos deben ponerse en contexto. En este sentido, la contribución de una variable a una componente allana el camino de la interpretación de resultados. Esto se hace en este apartado en el sentido de calcular lor aportes con que cada variable participa para definir a cada componente generada.
Con base en las variables cuantitativas del conjunto de datos descrito en la sección 2 se demanda determinar las contribuciones que hace cada variable a la construcción de cada componente.
La navegación a través de las pestañas permite reconocer en representaciones numéricas y gráficas las contribuciones de las variables del conjunto de datos a la construcción de cada componente. Así, se entiende cuánta variabilidad explica cada variable de la variabilidad total de la componente con que esté involucrada. en particular:
La Matriz de Contribuciones muestra en términos relativos la retención de variabilidad que tiene cada variable en la construcción de cada componente. Así, los diagramas de barras visualizados a través de las pestañas desde Contribuciones a D1 hasta Contribuciones a D6, muestran con base en diagramas de barras las respectivas contribuciones que hacen las variables para explicar la varianzar en cada componente; además, cada gráfico incluye una línea que ayuda a identificar la contribución media, esto ayuda a identificar con mayor facilidad a las variables que contribuyen con mayor explicación de variabilidad de los componentes que conforman.
En Contribuciones a D1 se visualiza que las variables por enciama de la contribución media: CGPA, Chance_of_Admit, TOEFL_Score y GRE_Score retienen aproximadamente el \(71.72\) \(\%\) de la variabilidad del componente 1.
En Contribuciones a D2 se visualiza que las variables por enciama de la contribución media: LOR y SOP retienen aproximadamente el \(67.87\) \(\%\) de la variabilidad del componente 2.
En Contribuciones a D3 se visualiza que las variables por enciama de la contribución media: SOP y LOR retienen aproximadamente el \(81.37\) \(\%\) de la variabilidad del componente 3.
En Contribuciones a D4 se visualiza que las variables por enciama de la contribución media: Chance_of_Admit y TOEFL_Score retienen aproximadamente el \(57.76\) \(\%\) de la variabilidad del componente 4.
En Contribuciones a D5 se visualiza que las variables por enciama de la contribución media: GRE_Score y TOEFL_Score retienen aproximadamente el \(95.51\) \(\%\) de la variabilidad del componente 5.
Por último, en Contribuciones a D6 se visualiza que las variables por enciama de la contribución media: CGPA y Chance_of_Admit retienen aproximadamente el \(96.06\) \(\%\) de la variabilidad del componente 6.
Con los datos procesados hasta ahora se puede proceder con la intepretación de los componentes.
(get_pca_var(PCA(Admission_Dataset[,-c(1,2,8,9)], ncp = 6, scale.unit = TRUE, graph = F)))$contrib
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
## GRE_Score 17.03858 16.624329 0.06450171 12.313282 52.01846278
## TOEFL_Score 17.30607 11.542236 6.08560812 20.928876 43.49556571
## SOP 14.86172 23.889292 54.17339277 3.505753 2.27005215
## LOR 13.41400 43.981812 27.19558265 15.205085 0.14530029
## CGPA 19.11628 2.094796 0.78484383 11.219286 0.02067047
## Chance_of_Admit 18.26335 1.867535 11.69607091 36.827718 2.04994861
## Dim.6
## GRE_Score 1.94084948
## TOEFL_Score 0.64164873
## SOP 1.29978503
## LOR 0.05821794
## CGPA 66.76412347
## Chance_of_Admit 29.29537534
fviz_contrib(PCA(Admission_Dataset[,-c(1,2,8,9)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 1, top = 10)
fviz_contrib(PCA(Admission_Dataset[,-c(1,2,8,9)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 2, top = 10)
fviz_contrib(PCA(Admission_Dataset[,-c(1,2,8,9)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 3, top = 10)
fviz_contrib(PCA(Admission_Dataset[,-c(1,2,8,9)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 4, top = 10)
fviz_contrib(PCA(Admission_Dataset[,-c(1,2,8,9)], ncp = 6, scale.unit = TRUE, graph = F), choice = "var", axes = 5, top = 10)
Con base en (Díaz Morales & Morales Rivera, 2012) se sabe que a partir de las coordenadas de los registros dimensionalmente reducidos se puede ubicar en un plano de factores para efectos de análisis e interpretación. Así, las variables reducidas son las componentes principales que se grafican como ejes en un plano, y los valores que tomen son los puntajes de las componentes. Como bien se explica en el mismo trabajo, las distancias entre los puntos definidos por los puntajes de las componentes tiene un significado relevante al ayudar a establecer semejanzas de perfiles en las observaciones hechas. Sin embargo, los valores semejantes de las variables pueden darse solo en algunas de ellas, sin esperar necesariamente a que suceda en todas. Así, se espera que las distancias en el espacio dimensional original de las observaciones queden bien representadas en el espacio reducido de las componentes.
Con base en las variables cuantitativas del conjunto de datos descrito en la sección 2 se demanda definir e interpretar sus componentes principales.
La navegación a través de las pestañas permite visualizar objetos gráficos y matriciales que, al incluir lo hecho en las secciones anteriores, ayudan a robustecer la interpretación de las componentes calculadas. Como se mostró en la sección 7, la cantidad de componentes seleccionadas se redujo (según el criterio de Kaiser) a una y se estableció que la componente 1 retiene el \(77.05\) \(\%\) de la variabilidad de los datos. Así, en el círculo de correlaciones de la sección 8 se aprecia que la representación de las variables conjugadas en la componente 1 la configuran como una de tipo tamaño, lo que puede interpretarse como una especie de índice de proporcionalidad directa. Esto también se apoya con base en el hecho de que todas las variables presentan calidades de representación entre \(0.62\) y \(0.88\). En consecuencia, cuanto mayor sea el valor las variables mayor será el estado de favorabilidad de que el estudiante sea admitido por la univrsidad de su preferencia. Así, dada la naturaleza de las variables esta componente puede representar para un estudiante su medida de competitividad formativa. Al respecto:
Las pestañas Biplot de Variables y Registros Totales en UR (University Rating), G (Gender) y R (Research), muestran, con base en las agrupaciones que estas variables categóricas pueden establecer, la representación en dimensionalidad reducida en el plano de factores de registros y dimensiones con base en los puntajes por componentes. En este sentido, es posible apreciar que las agrupaciones con base en University_Rating y Research capturan diferencias acentuadas en la distribuciones de las observaciones, contrario a la agrupación con base en Gender.
Por último, para facilitar la verificación de la ubicación de puntajes en el plano de componentes (en particular, siempre conformado por las componentes 1 y 2 por el interés que sucitan) y, asimismo, las semejanzas de perfiles y las correlaciones entre variables, se dispuso de las pestañas Coordenadas Individuales [Subconjunto UR] y Biplot de Variables y Registros [Subconjunto UR]. Estas muestran, con base en un subconjuto de 61 registros muestrado aleatorio simple, los puntajes por componentes y el biplot de ese subconjunto, con base en la agrupación provista por la varaible categórica University_Rating, sin pérdida significativa de detalles. Esto, se insiste, solo tiene fines didácticos, debido a la dificultad de identificación visual que presenta el conjunto original que contiene 400 registros.
data_UR <- Admission_Dataset_Initial[,-c(1,2,8)]
data_All <- cbind(Admission_Dataset_Initial[,-c(1,2,8,9)], data_UR$University_Rating)
fviz_pca_biplot(PCA(data_All, ncp = 6, scale.unit = TRUE, graph = F, quali.sup = 7), axes = c(1, 2), repel = TRUE, habillage = 7)
data_UR <- Admission_Dataset_Initial[,-c(1,8,9)]
data_All <- cbind(Admission_Dataset_Initial[,-c(1,2,8,9)], data_UR$Gender)
fviz_pca_biplot(PCA(data_All, ncp = 6, scale.unit = TRUE, graph = F, quali.sup = 7), axes = c(1, 2), repel = TRUE, habillage = 7)
data_UR <- Admission_Dataset_Initial[,-c(1,2,9)]
data_All <- cbind(Admission_Dataset_Initial[,-c(1,2,8,9)], data_UR$Research)
fviz_pca_biplot(PCA(data_All, ncp = 6, scale.unit = TRUE, graph = F, quali.sup = 7), axes = c(1, 2), repel = TRUE, habillage = 7)
set.seed(780728)
data_61_UR <- Admission_Dataset_Initial[sample(1:nrow(Admission_Dataset_Initial),61),-c(1,2,8)]
set.seed(780728)
data_61 <- cbind(Admission_Dataset_Initial[sample(1:nrow(Admission_Dataset_Initial),61),-c(1,2,8,9)], data_61_UR$University_Rating)
head(PCA(data_61, ncp = 6, scale.unit = T, graph = F, quali.sup = 7)$ind$coord, n = 61L)
## Dim.1 Dim.2 Dim.3 Dim.4 Dim.5 Dim.6
## 1 2.68761751 0.02450021 -0.174588047 -0.3744681469 0.20243105 0.09714639
## 2 -0.68733407 0.09559234 -0.429878544 0.3006483758 0.55882375 -0.41539839
## 3 -2.66688446 0.99297045 -0.154631808 0.2955375778 0.91070623 -0.54643606
## 4 -2.60547963 0.90034536 -0.019614410 -0.0213467292 -0.11686267 0.21276009
## 5 1.08112756 0.40126269 0.092843433 0.0881547303 -0.54870098 0.12868982
## 6 1.84519346 0.73863622 0.122725654 0.3044756351 -0.25870078 -0.29131881
## 7 -0.58747951 -0.02256539 0.456341153 -1.2163134978 -0.01333260 -0.94317535
## 8 4.01404297 0.07462346 0.109467778 -0.6287994639 0.60476060 -0.09211162
## 9 -0.91086676 0.33014131 -0.213824989 -0.4796112753 -0.27321962 0.17828584
## 10 1.99972822 -0.51428654 -0.239308944 -0.1615319470 0.04151905 -0.01116718
## 11 -0.95952733 -0.26982240 -0.628357160 -0.2695572128 -0.41111602 0.24409785
## 12 -0.19766524 -0.28396958 -0.159860979 -0.1187760407 -0.35433595 0.16222254
## 13 -0.11229774 0.04922496 -0.520651363 -0.2764481615 -0.23244849 0.60623579
## 14 1.31908921 -0.83063861 0.459124717 0.0260651127 -0.26542984 -0.06860382
## 15 0.72561624 0.69347072 0.441628837 -0.4125443603 1.09108940 0.54905112
## 16 -3.05518824 -1.00327852 -0.517772977 0.0169673161 0.11745016 -0.48627516
## 17 -0.32128795 1.31505890 -0.334220920 0.5188724696 -0.63373067 -0.31543233
## 18 0.59398643 1.05012623 0.823718459 0.0006562314 0.39817645 0.37906406
## 19 4.31763412 -0.76639535 0.305614507 0.3514348648 0.06165635 0.10729655
## 20 -2.66850653 -0.88007178 -1.150343969 0.4998803377 0.64189881 0.47161684
## 21 2.49833145 0.33680478 -0.497108151 -0.1493167937 0.73518345 -0.01616226
## 22 4.42861912 -1.19651010 -0.065398012 -0.0662251616 -0.12480678 -0.21829986
## 23 -0.10138583 0.26657454 1.025802277 0.1844089350 -0.23952973 0.21237382
## 24 0.77832836 0.51483734 -0.586749977 -0.3660228511 -0.22881809 0.03093306
## 25 -3.34603035 -0.73197519 0.572679946 -0.2522335792 0.45386536 0.58574083
## 26 -1.12156436 0.47009460 0.710676700 -0.2693120533 0.03905343 0.28650198
## 27 1.12573128 -0.17577080 -0.100141703 -0.1546231843 -0.24919779 -0.45040087
## 28 3.07067126 0.35323879 0.757028987 0.4247162580 -0.12499666 -0.09729370
## 29 -2.92576647 0.11991747 0.250445228 -0.2299849763 0.13108636 0.13961852
## 30 -1.57082897 0.82519550 0.448043093 -0.0817267972 -0.19123476 -0.01806606
## 31 3.88893564 0.20786100 0.370786584 0.4214452559 -0.27081769 0.18277722
## 32 -0.09514144 0.11557851 0.021320640 0.6302141984 0.72768874 -0.64366773
## 33 0.08471986 1.61655715 -0.188909993 -0.7008855995 0.13920525 -0.02845328
## 34 -0.59184199 -0.22876447 -0.926126623 -0.2235325185 -0.17851703 0.48899087
## 35 -3.27720201 -0.87836770 0.823764048 -0.3562505606 0.97461197 0.27193935
## 36 -1.00907062 -0.60981916 -0.366548178 -0.0095160479 -0.74853286 -0.07287862
## 37 -3.44740002 0.09518884 -0.279026284 1.2727724524 -0.29958247 -0.03048890
## 38 -0.61814715 1.35139235 -0.147464086 0.5287327428 -0.26151384 0.23159263
## 39 -0.95360489 0.60765498 -0.840617577 0.0538599827 -0.37791331 0.27308231
## 40 -0.50218812 -0.31602204 -0.856741467 -0.2330804793 -0.02917330 0.27512267
## 41 2.10626250 -1.04424439 -0.963150163 0.3392035768 0.31987492 0.03821925
## 42 1.28322709 -0.62926111 0.441965914 -0.3562454098 -0.40127799 0.01056439
## 43 2.86084387 -0.97743658 -0.189055903 -0.3257769792 -0.24103693 -0.02533912
## 44 0.11095420 0.09104799 0.329152682 -0.2503309611 -0.05860961 -0.31122317
## 45 0.86048677 -1.06837705 1.669752773 0.7807790722 -0.18776456 0.15605708
## 46 -2.01348062 -0.35196960 0.153198506 -0.2101122481 -0.33640760 -0.24733626
## 47 0.49914560 0.99619621 0.203342566 -0.6055245095 -0.15223639 -0.39848712
## 48 -0.18678673 0.07290830 0.277304278 0.2073225308 -0.11177696 0.50750739
## 49 0.53103836 0.64282486 -0.737406584 0.0797141721 0.64352663 0.29279878
## 50 -3.35949243 -0.44687930 0.006172428 -0.0045161417 -0.38323628 -0.43416026
## 51 -1.76561250 -0.71357365 0.119940618 0.3131484601 -0.39483497 -0.13067773
## 52 -0.61646599 0.78723572 0.792587313 0.0458368814 -0.47170228 -0.07547270
## 53 -1.13208355 0.23098651 0.334020200 -0.9375383689 -0.14012116 -0.18977532
## 54 -0.27645335 1.39981251 -0.625640992 0.8891418808 -0.14251466 -0.21940402
## 55 2.88576942 1.38441807 -0.193040456 0.1296641060 -0.02106329 0.03478427
## 56 -5.04977695 -0.90629264 0.026357340 -0.5769148808 0.38735732 -0.21288001
## 57 1.92705611 -0.90735952 -0.718194109 -0.2719132197 -0.22644798 -0.26096780
## 58 3.43755620 -1.17933752 -0.453693737 -0.0563528841 0.04013918 0.18174093
## 59 0.07536328 -0.43227807 0.549529614 0.5870839780 0.36357097 0.78670503
## 60 0.69062813 -0.65223897 0.232067290 1.0279357809 0.99227537 -0.88356806
## 61 -2.99486239 -1.13477288 0.350664541 0.3286601252 -0.87440821 0.01140428
set.seed(780728)
data_61_UR <- Admission_Dataset_Initial[sample(1:nrow(Admission_Dataset_Initial),61),-c(1,2,8)]
set.seed(780728)
data_61 <- cbind(Admission_Dataset_Initial[sample(1:nrow(Admission_Dataset_Initial),61),-c(1,2,8,9)], data_61_UR$University_Rating)
fviz_pca_biplot(PCA(data_61, ncp = 6, scale.unit = T, graph = F, quali.sup = 7), axes = c(1, 2), repel = T, habillage = 7)
En términos generales, esta tercera etapa de estudio mostrará cálculos, visualizaciones e interpretaciones con base en el conjunto de datos tratado en las Etapa 1 y 2, pero ahora desde un enfoque de análisis de correspondencias simples y múltiples sobre las variables cuanlitativas, que incluirá: construcción de tablas de contingencias y disyuntivas completas, calidades de representación, contribuciones e interpretaciones.
Recuérdese que el conjunto de datos de trabajo es descrito en la sección 2 y los referentes teóricos en la sección 1.
Por último, este trabajo fue procesado con R version 4.2.2 (2022-10-31 ucrt) mediado por RStudio 2022.12.0 Build 353 en una plataforma x86_64-w64-mingw32. Además, por su naturaleza de publicación en línea y para cumplir con el requisito temporal de entrega, será actualizado, como máximo, hasta las 11:59 p.m. del domingo 5 de marzo de 2023.
Con base en las variables cualitativas del conjunto de datos descrito en la sección 2 se demanda…
addmargins(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$Research))
##
## no-research research Sum
## F 71 80 151
## M 110 139 249
## Sum 181 219 400
addmargins(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$University_Rating))
##
## five_stars four_stars one_star three_stars two_stars Sum
## F 23 22 12 53 41 151
## M 37 52 14 80 66 249
## Sum 60 74 26 133 107 400
addmargins(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating))
##
## five_stars four_stars one_star three_stars two_stars Sum
## no-research 8 15 21 62 75 181
## research 52 59 5 71 32 219
## Sum 60 74 26 133 107 400
addmargins(prop.table(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$Research))*100)
##
## no-research research Sum
## F 17.75 20.00 37.75
## M 27.50 34.75 62.25
## Sum 45.25 54.75 100.00
addmargins(prop.table(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$University_Rating))*100)
##
## five_stars four_stars one_star three_stars two_stars Sum
## F 5.75 5.50 3.00 13.25 10.25 37.75
## M 9.25 13.00 3.50 20.00 16.50 62.25
## Sum 15.00 18.50 6.50 33.25 26.75 100.00
addmargins(prop.table(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating))*100)
##
## five_stars four_stars one_star three_stars two_stars Sum
## no-research 2.00 3.75 5.25 15.50 18.75 45.25
## research 13.00 14.75 1.25 17.75 8.00 54.75
## Sum 15.00 18.50 6.50 33.25 26.75 100.00
addmargins(prop.table(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$Research), 1)*100, 2)
##
## no-research research Sum
## F 47.01987 52.98013 100.00000
## M 44.17671 55.82329 100.00000
addmargins(prop.table(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$Research), 2)*100, 1)
##
## no-research research
## F 39.22652 36.52968
## M 60.77348 63.47032
## Sum 100.00000 100.00000
addmargins(prop.table(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$University_Rating), 1)*100, 2)
##
## five_stars four_stars one_star three_stars two_stars Sum
## F 15.23179 14.56954 7.94702 35.09934 27.15232 100.00000
## M 14.85944 20.88353 5.62249 32.12851 26.50602 100.00000
addmargins(prop.table(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$University_Rating), 2)*100, 1)
##
## five_stars four_stars one_star three_stars two_stars
## F 38.33333 29.72973 46.15385 39.84962 38.31776
## M 61.66667 70.27027 53.84615 60.15038 61.68224
## Sum 100.00000 100.00000 100.00000 100.00000 100.00000
addmargins(prop.table(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating), 1)*100, 2)
##
## five_stars four_stars one_star three_stars two_stars
## no-research 4.419890 8.287293 11.602210 34.254144 41.436464
## research 23.744292 26.940639 2.283105 32.420091 14.611872
##
## Sum
## no-research 100.000000
## research 100.000000
addmargins(prop.table(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating), 2)*100, 1)
##
## five_stars four_stars one_star three_stars two_stars
## no-research 13.33333 20.27027 80.76923 46.61654 70.09346
## research 86.66667 79.72973 19.23077 53.38346 29.90654
## Sum 100.00000 100.00000 100.00000 100.00000 100.00000
plotct(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$Research),"row")
plotct(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$Research),"col")
plotct(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$University_Rating),"row")
plotct(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$University_Rating),"col")
plotct(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating),"row")
plotct(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating),"col")
chisq.test(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$Research))
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$Research)
## X-squared = 0.20268, df = 1, p-value = 0.6526
chisq.test(table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$University_Rating))
##
## Pearson's Chi-squared test
##
## data: table(Admission_Dataset_Initial$Gender, Admission_Dataset_Initial$University_Rating)
## X-squared = 3.0799, df = 4, p-value = 0.5445
chisq.test(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating))
##
## Pearson's Chi-squared test
##
## data: table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating)
## X-squared = 83.306, df = 4, p-value < 2.2e-16
chisq.test(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating))$observed
##
## five_stars four_stars one_star three_stars two_stars
## no-research 8 15 21 62 75
## research 52 59 5 71 32
chisq.test(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating))$expected
##
## five_stars four_stars one_star three_stars two_stars
## no-research 27.15 33.485 11.765 60.1825 48.4175
## research 32.85 40.515 14.235 72.8175 58.5825
chisq.test(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating))$residuals
##
## five_stars four_stars one_star three_stars two_stars
## no-research -3.6752244 -3.1944368 2.6924084 0.2342822 3.8202751
## research 3.3411894 2.9040998 -2.4476999 -0.2129887 -3.4730567
chisq.test(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating))$residuals^2/chisq.test(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating))$statistic*100
##
## five_stars four_stars one_star three_stars two_stars
## no-research 16.21400512 12.24929770 8.70170691 0.06588722 17.51910304
## research 13.40061611 10.12384879 7.19182169 0.05445474 14.47925868
CA(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating), graph = FALSE)$eig
## eigenvalue percentage of variance cumulative percentage of variance
## dim 1 0.2082655 100 100
#fviz_ca_biplot(CA(table(Admission_Dataset_Initial$Research, Admission_Dataset_Initial$University_Rating), graph = FALSE), repel = TRUE)
Con base en las variables cualitativas del conjunto de datos descrito en la sección 2 se demanda…
MCA(Admission_Dataset_Initial[1:400, -c(1,3,4,5,6,7,10)], graph = FALSE)
## **Results of the Multiple Correspondence Analysis (MCA)**
## The analysis was performed on 400 individuals, described by 3 variables
## *The results are available in the following objects:
##
## name description
## 1 "$eig" "eigenvalues"
## 2 "$var" "results for the variables"
## 3 "$var$coord" "coord. of the categories"
## 4 "$var$cos2" "cos2 for the categories"
## 5 "$var$contrib" "contributions of the categories"
## 6 "$var$v.test" "v-test for the categories"
## 7 "$ind" "results for the individuals"
## 8 "$ind$coord" "coord. for the individuals"
## 9 "$ind$cos2" "cos2 for the individuals"
## 10 "$ind$contrib" "contributions of the individuals"
## 11 "$call" "intermediate results"
## 12 "$call$marge.col" "weights of columns"
## 13 "$call$marge.li" "weights of rows"
fviz_mca_biplot(MCA(Admission_Dataset_Initial[1:400, -c(1,3,4,5,6,7,10)], graph = FALSE), repel = TRUE)
fviz_mca_var(MCA(Admission_Dataset_Initial[1:400, -c(1,3,4,5,6,7,10)], graph = FALSE), col.var ="cos2", gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"), repel = TRUE)
fviz_contrib(MCA(Admission_Dataset_Initial[1:400, -c(1,3,4,5,6,7,10)], graph = FALSE), choice = "var", axes = 1, top = 15)
fviz_contrib(MCA(Admission_Dataset_Initial[1:400, -c(1,3,4,5,6,7,10)], graph = FALSE), choice = "var", axes = 2, top = 15)
fviz_contrib(MCA(Admission_Dataset_Initial[1:400, -c(1,3,4,5,6,7,10)], graph = FALSE), choice = "var", axes = 3, top = 15)
fviz_contrib(MCA(Admission_Dataset_Initial[1:400, -c(1,3,4,5,6,7,10)], graph = FALSE), choice = "var", axes = 4, top = 15)
fviz_contrib(MCA(Admission_Dataset_Initial[1:400, -c(1,3,4,5,6,7,10)], graph = FALSE), choice = "var", axes = 5, top = 15)
fviz_mca_var(MCA(Admission_Dataset_Initial[1:400, -c(1,3,4,5,6,7,10)], graph = FALSE), col.var ="contrib", gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"), repel = TRUE)
Complementariamente a los análisis que fueron expuestos en las secciones de estudio es importante hacer una mención global sobre el problema considerado a la luz de lo obtenido.
Como se menciona en el trabajo hecho en el curso Análisis de Regresión (que puede ser consultado temporalmente a través de: https://rpubs.com/glibrerosl/Applied-Statistics-FULL), las aspiraciones de un estudiante extranjero para ingresar a una universidad norteamericana se enfrentan a un elevado grado de competición. Además, se constata, desde la perspectiva de estudio multivariable, que, por lo menos descriptivamente, una variable clasificadora categórica como el sexo, resulta muy poco significativa formar grupos diferenciados entre los estudiantes con aspiraciones de ingreso, asunto que contrasta con los relatos socio-populistas basados en falacias ad hominem. El dato, si es fino, siempre será objetivo.
Complementariamente, todas las pruebas de normalidad multivariante resultaron negativas, salvo que a nivel univariado la variable CGPA presentó distribución normal en todas ellas. Así, el deterioro de las propiedades de independencia lineal juegan a favor de la síntesis de información a través de la estimación de componentes principales. Este pudo describir una medida de competitividad formativa que conjuga, con una retención de \(77.05\) \(\%\) la variabilidad del conjunto de datos, la naturaleza interpretativa del fenómeno estudiado. Así, cuanto mayor sea el valor de las variables que registra un estudiante para aplicar a una plaza en una universidad de su elección, mayor será el estado de favorabilidad de que el estudiante sea admitido por la universidad de su preferencia.
Por último, es importante resaltar el aspecto técnico relacionado con el procesamiento estadístico hecho en este estudio a nivel de robustez, eficiencia e integración que R, RStudio y RMarkdown ofrecen al usuario para que este se pueda enfocar en él sin pasar mayores inconvenientes con el soporte documental para presentarlo.